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Résumé. Dans un système décisionnel, la composante visuelle est im- 
' ^ portante pour l'analyse en ligne OLAP. Dans cet article, nous proposons 

K-5 une nouvelle approche qui permet d'apporter une solution au problème 

Q»,^ de visualisation des données engendré par l'éparsité. En se basant sur les 

résultats d'une analyse des correspondances multiples (ACM), nous ten- 
'~P tons d'atténuer l'effet négatif de l'éparsité en organisant différemment les 

cellules d'un cube de données. Notre méthode ne cherche pas à réduire 
l'éparsité mais plutôt à construire un espace de représentation se prêtant 
c/^ mieux à l'analyse et dans lequel les faits du cube sont regroupés. Pour 

O évaluer l'apport de cette nouvelle représentation des données, nous pro- 

posons un indice d'homogénéité basé sur le voisinage géométrique des 
7—i cellules d'un cube. Les différents tests menés nous ont montré l'efficacité 

de notre méthode. 

00 

Mots-clés : ACM, arrangement, cube de données, éparsité d'un cube, 
espace de représentation, indice d'homogénéité, OLAP, visualisation, voi- 
T— I sinage. 

O 

1 Introduction 

O 

^ Dans un contexte concurrentiel développé, les entreprises telles que les banque^ 

doivent aujourd'hui être capables de prendre des décisions pertinentes, de façon réactive. 
rS La mise en place d'un processus décisionnel est alors nécessaire pour gérer une masse 

de données de plus en plus conséquente. Le stockage et la centralisation de ces données 
dans un entrepôt constitue un support efficace pour l'analyse de ces dernières. En ef- 
fet, à partir d'un entrepôt de données, on dispose d'outils permettant de construire 
des contextes d'analyse multidimensionnels ciblés, appelés communément cubes de 
données. Ces cubes de données répondent à des besoins d'analyse prédéfinis en amont. 

L'analyse en ligne OLAP (On Line Analytical Processing) est un outil basé sur 
la visualisation permettant la navigation, l'exploration dans ces cubes de données. 
L'objectif est d'observer des faits, à travers une ou plusieurs mesures, en fonction de 
différentes dimensions. Il s'agit par exemple d'observer les niveaux de ventes en fonction 



^Nous remercions Michel Rougié, représentant du Crédit Lyonnais, pour les données fournies afin 
de valider ce travail. 
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des produits, des périmètres commerciaux (localisations géographiques) et de la période 
d'achat. 

De cette visualisation dépend la qualité d'exploitation des données. Or, différents 
facteurs peuvent dégrader cette visualisation. D'une part, la représentation multidi- 
mensionnelle engendre une éparsité, puisqu'à l'intersection de différentes modalités de 
dimensions, il n'existe pas forcément de faits correspondants. Cette éparsité peut être 
accentuée par la considération d'un grand nombre de dimensions (forte dimensionna- 
lité) et/ou d'un grand nombre de modalités dans chacune des dimensions. D'autre part, 
les modalités des dimensions sont généralement représentées selon un ordre pré-établi 
(ordre naturel) : ordre chronologique pour les dates, alphabétique pour les libellés. Dans 
la plupart des cas, cet ordre entraîne une distribution aléatoire des points représentant 
les faits observés (les cellules pleines) dans l'espace des dimensions. 

Dans cet article, nous proposons d'améliorer la visualisation des données dans les 
cubes. Nous ne diminuons pas l'éparsité du cube comme dans [Niemi et al., 2003] , mais 
à atténuer son effet négatif sur la visualisation, en regroupant les cellules pleines. Pour 
ce faire, nous proposons d'arranger l'ordre des modalités étant donné que l'ordre initial 
n'engendre pas forcément une bonne visualisation. Cet arrangement tient compte des 
corrélations existant entre les faits présents dans l'espace de représentation d'un cube de 
données. Les corrélations sont fournies par le résultat d'une analyse des correspondances 
multiples (ACM) apphquée sur les faits du cube. 

Ce travail s'inscrit dans une approche générale de couplage entre fouille de données 
et analyse en ligne. Dans Messaoud et al., 2005| , une réflexion sur l'usage de l'analyse 
factorielle dans un contexte OLAP a été amorcée. A présent, nous exploitons l'ACM 
comme un outil d'aide à la construction de cubes de données ayant de meilleures 
caractéristiques pour la visualisation. En effet, l'ACM construit des axes factoriels 
qui offrent de meilleurs points de vue du nuage de points des individus. 

L'article est organisé comme suit. Dans la section [2] nous repositionnons plus en 
détail le contexte et les motivations de notre travail. Nous détaillons les différentes 
étapes de notre approche dans la section [3] Nous présentons dans la section [4] une 
étude de cas sur un jeu de données bancaires. Dans la sectionJÏÏ] nous donnons un 
aperçu des travaux connexes au nôtre. Enfin, dans la section [6] nous dressons une 
conclusion et proposons des perspectives de recherche. 



2 Contexte et motivations 

Dans un système décisionnel, les données sont organisées selon un modèle, en 
"étoile" ou en "flocon de neige", dédié à l'analyse et traduisant un contexte d'étude 
ciblé [Inmon, 1996[ [Kimball, 1996| . Autour d'une table de faits centrale contenant une 
ou plusieurs mesures à observer, existent plusieurs tables de dimensions comprenant des 
descripteurs. Une dimension peut comporter plusieurs hiérarchies impliquant différents 
niveaux de granularités possibles dans la description de chaque fait. Cette organisation 
est particulièrement adaptée pour créer des structures multidimensionnelles, appelées 
"cubes" de données, destinées à l'analyse OLAP. Dans un cube de données, un fait est 
ainsi identifié par un ensemble de modalités prises par les différentes dimensions. Le 
fait est observé par une ou plusieurs mesures ayant des propriétés d'additivité plus ou 
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moins fortes. 

La vocation de l'OLAP est de fournir à l'utilisateur un outil visuel pour consulter, 
explorer et naviguer dans les données d'un cube afin d'y découvrir rapidement et faci- 
lement des informations pertinentes. Toutefois, dans le cas de données volumineuses, 
telles que les données bancaires considérées dans notre étude, l'analyse en ligne n'est 
pas une tâche facile pour l'utilisateur. En effet, un cube à forte dimensionnalité com- 
portant un grand nombre de modalités, présente souvent une structure éparse difficile 
à exploiter visuellement. De plus, l'éparsité, souvent répartie de façon aléatoire dans le 
cube, altère davantage la qualité de la visualisation et de la navigation dans les données. 

Prenons l'exemple de la figure [î] qui présente un cube de données bancaires à deux 
dimensions : les localités géographiques des agences (Li, et les produits de la 

banque (Pi, . . . , P12). Les cellules grisées sur la figure sont pleines et représentent la me- 
sure de faits existants (chiffres d'affaires, par exemple) alors que les cellules blanches 
sont vides et correspondent à des faits inexistants (pas de mesures pour ces croise- 
ments de modalités). D'après la figure [î] la répartition des cellules pleines dans la 
représentation (a) ne se prête pas facilement à l'interprétation. En effet, visuellement, 
l'information est éparpillée (d'une façon aléatoire) dans l'espace de représentation des 
données. En revanche, dans la représentation (b), les cellules pleines sont concentrées 
dans la zone centrale du cube. Cette représentation offre des possibilités de comparai- 
son et d'analyse des valeurs des cellules pleines (les mesures des faits) plus aisées et 
plus rapides pour l'utilisateur. 
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FiG. 1 - Exemple de deux représentations d'un espace de données 



Notons que les deux représentations de la figure [î] correspondent au même cube 
de données. La représentation (b) est obtenue par simples permutations de lignes et 
de colonnes de la représentation (a). Dans la plupart des serveurs OLAP, les moda- 
lités d'une dimension sont présentées selon un ordre arbitraire. En général, cet ordre 
est alphabétique pour les libellés des modalités et chronologique pour les dimensions 
temporelles. Malheureusement, dans le cas des cubes éparses et volumineux, ce choix 
entraîne des représentations de données inadaptées à l'analyse, voire même difficilement 
exploitables, comme c'est le cas de la représentation (a) de la figure [î] 



RNTI - E - 



Espaces de représentation multidimensionnels dédiés à la visualisation 



La composante visuelle de l'OLAP est primordiale dans un processus décisionnel. 
En effet, de la qualité et de la clarté de celle-ci dépendent les orientations de l'utilisateur 
dans son exploration du cube. Ceci détermine la qualité des résultats finaux de l'analyse 
en ligne. En se basant sur notre idée de l'arrangement des modalités des dimensions 
illustrée dans l'exemple précédent, nous proposons une méthode permettant à l'utili- 
sateur d'améliorer automatiquement la qualité de la représentation des données. Nous 
souhaitons produire une meilleure visualisation homogénéisant au mieux le nuage des 
faits (cellules pleines) et mettant en avant des points de vue intéressants pour l'analyse. 

Notre idée d'arrangement consiste à rassembler géométriquement les cellules pleines 
dans l'espace de représentation des données. Dans ce travail, nous ne cherchons pas à 
diminuer l'éparsité du cube, mais à l'organiser de manière intelligente pour atténuer 
l'impact négatif sur la visualisation qu'elle engendre. Nous évaluons l'organisation des 
données de notre méthode par un indice de qualité de la représentation des données 
que nous définissons dans la section suivante. 

Pour des raisons de complexité de traitements, nous avons exclu la recherche d'un 
optimum global, voire même local, de l'indice de qualité selon une exploration exhaus- 
tive des configurations possibles du cube ; c'est à dire, toutes les combinaisons des 
arrangements possibles des modahtés des dimensions du cube. En effet, considérons le 
cas d'un cube à trois dimensions oii chaque dimension comporte seulement f moda- 
lités. Le nombre de configurations possibles pour ce cube est égal à A\q x AJq x v4}q = 
10! X 10! X 10! -4,7- lO^^. 

Afin de parvenir à un arrangement convenable des modalités du cube, sans pas- 
ser par une recherche exhaustive d'un optimum, nous choisissons d'utiliser les résultats 
d'une analyse en correspondances multiples (ACM) [Benzécri, 1969|[Lebart et ai, 2000| . 
L'ACM est alors considérée comme une heuristique appliquée à la volée aux données 
du cube que l'utilisateur cherche à visualiser. Les individus et les variables de l'ACM 
correspondent respectivement aux faits et aux dimensions du cube. En construisant 
des axes factoriels, l'ACM fournit une représentation d'associations entre individus et 
entre variables dans un espace réduit. Ces axes factoriels permettent d'ajuster au mieux 
le nuage de points des individus et des variables. Dans le cas de notre approche, afin 
de mieux représenter les données dans un cube, nous proposons d'exploiter les coor- 
données de ses modalités sur les axes factoriels. Ces coordonnées déterminent l'ordre 
d'arrangement des modalités dans les dimensions. Cependant, l'ACM s'applique sur un 
tableau disjonctif complet obtenu en remplaçant dans le tableau initial chaque variable 
qualitative par l'ensemble des variables indicatrices des différentes modalités de cette 
variable. 

Dans la section suivante, nous formalisons les étapes de notre approche. Cette for- 
malisation présente la construction du tableau disjonctif complet à partir du cube de 
données, l'ACM, l'arrangement des modalités des dimensions et l'indice de qualité de 
la représentation des données. 
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3 Formalisation 
3.1 Notations 

Dans la suite de l'article, nous considérons C un cube de données à d dimen- 
sions, m mesures et n faits {d,m,n G N*). Nous adoptons les notations suivantes : 
Di, . . . ,Df, . . . représentent les d dimensions de C. 

Pour la clarté de l'exposé, nous supposons que les dimensions ne comportent pas 

de hiérarchies. Nous considérons que la dimension Dt {t G {1, . . . , li}) est un ensemble 
de pt modalités qualitatives. On note a* la modalité de la dimension Dt- Ainsi, 

l'ensemble des modalités d'une dimension Dt est {a* , . . . , a*, . . . , ftp^}. Soit p = Pt 
le nombre total cic toutes les modalités des d. dimensions du cube C. 

Une cellule A dans un cube C est dite pleine (respectivement, vide) si elle contient 
une mesure d'un fait existant (respectivement, ne contient pas de faits). 



3.2 Aplatissement du cube de données 

Pour aplatir le cube C, nous le représentons sous forme bi-dimcnsionncUc par un 
tableau disjonctif complet. Pour chaque dimension Dt {t G {l, . . . , d}), nous générons 
une matrice Zt kn lignes et pt colonnes. Zt est telle que sa i"^""^ ligne contenant {pt — 1) 

fois la valeur et une fois la valeur 1 dans la colonne correspondant à la modalité que 
prend le fait i (i G {!,..., n}). Le terme général de la matrice Zt s'écrit : 




1 si le fait i prend la modalité a*- de la dimension Dt 
sinon 



En juxtaposant les d matrices Zt, nous construisons la matrice Z k n lignes et p 
colonnes. Z = [Zi, Z2, . ■ ■ , Zt, . . . , Z^] est un tableau disjonctif complet qui décrit les d 
positions des n faits du cube C par un codage binaire. 



3.3 Application de l'ACM 

A partir du tableau disjonctif complet Z, nous construisons le tableau symétrique 

B = Z'Z {Z' désigne la transposée de Z) d'ordre {p,p), qui rassemble les croisements 
deux à deux de toutes les dimensions du cube C. B est appelé tableau de contingence 
de "Burt" associé à Z. 

Soit X la matrice diagonale, d'ordre {p,p), ayant les mêmes éléments diagonaux que 
B et des zéros ailleurs. Pour trouver les axes factoriels, nous diagonalisons la matrice 
S = ^Z' ZX~^ dont le terme général est : 

1 " 

Après diagonalisation, nous obtenons {p — d) valeurs propres de S notées (a G 
{!,..., {p—d)}). Chaque valeur propre A» correspond à un axe factoriel Fa, de vecteur 
directeur Ua et vérifiant dans W l'équation : 
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Les modalités de la dimension Dt sont projetées sur les (p — d) axes factoriels. 
Soit (^^ le vecteur des projections des pt modalités de £>t sur F„. Notons que = 

Désignons par le vecteur des p projections des modalités de toutes les dimensions 
sur l'axe factoriel a. Notons que ^p^ = [tp^, . . . , t/?^, . . . , ^pP] et que vérifie l'équation : 

-X~^Z' Z^Pa = XaVa 

a 

La contribution d'une modalité a*- dans la construction de l'axe a est évaluée par : 



2 



Cr„(a ) 



a 



Où Zj = J2"=i ^ij correspond au nombre de faits dans le cube C ayant la modalité 
Oj (poids de la modalité a* dans le cube) . 

La contribution d'une dimension Dt dans la construction du facteur a est la somme 
des contributions des modalités de cette dimension, soit : 



fi -, Pt 



3.4 Arrangement des modalités du cube 

Notre idée consiste à associer chaque dimension initiale Dt à un axe factoriel -F„. 
Pour cela, nous exploitons les contributions relatives des dimensions dans la construc- 
tion des axes factoriels. 

Pour une dimension Dt donnée, nous cherchons, parmi les axes factoriels F^, celui 
qui a été le mieux expliqué par les modalités de cette dimension. Nous cherchons à 
maximiser la valeur de XaCr^^Dt). Il s'agit donc de chercher l'axe Fa* pour lequel 
la somme des carrés des projections pondérées des modalités de la dimension Dt est 
maximale. Nous cherchons l'indice a* vérifiant l'équation suivante : 



Xa,Cra'{Dt)= max (AaCra(A)) 

ae{l, — ,p-d} 

A partir des coordonnées des pt projections cp^.^ des modalités a*- sur l'axe Fa», 
nous appliquons un tri croissant de ces coordonnées. Ce tri fournit un ordre des indices 
j selon lequel nous arrangeons les modalités a* de la dimension Dt- 

L'intérêt de cet arrangement est de converger vers une répartition des modalités 
de la dimension suivant l'axe factoriel. Cet arrangement a pour effet de concentrer les 
cases pleines au centre du cube et d'éloigner les cases vides vers les extrémités. Sans 
diminuer l'éparsité, cette méthode nous permet néanmoins d'améliorer la répartition 
des données dans le c;ube. Pour estimer la qualité de cet arrangement, nous proposons 
un indice pour évaluer l'homogénéité du cube. 
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FiG. 2 - Exemple en 2 dimensions de la notion de voisinage des cellules d'un cube de 
données 



3.5 Indice d'homogénéité 

Dans cette section, nous proposons un indice permettant de mesurer l'homogénéité 
de la répartition géométrique des cellules dans un cube. Grâce à cet indice, nous 
pouvons évaluer le gain induit par l'arrangement des modalités des dimensions. Nous 
considérons que plus les cellules pleines (ou bien vides) sont concentrées, plus le cube 
est dit "homogène". 

Une cellule dans un cube représente une ou plusieurs mesures agrégées des faits. 
Les modalités des dimensions constituent les coordonnées des cellules dans le cube. 
Soit A — (aj^ , . . . , a*^ , . . . , a^^) une cellule dans le cube C, avec t £ {1, . . . ,d} et jt e 
{1, . . . ,pt}. jt est l'indice de la modalité que prend la cellule A pour la dimension Dt. 

Nous considérons que toutes les modalités des dimensions Dt sont géométriquement 
ordonnées dans l'espace de représentation des données selon l'ordre des indices jt. C'est 
à dire, la modalité a*^_i précède a*^, qui, à son tour, précède a'-^+i (voir l'exemple de 
la figure |2|. L'ordre des indices jt correspond à l'ordre dans lequel sont arrangées dans 
l'espace les modalités de la dimension Dt. Nous définissons à présent la notion de 
voisinage pour les cellules d'un cube. 

Définition 1 (Cellules voisines) Soit A — (aj^ , . . . , a*^ , . . . , a^^ ) une cellule dans un 
cube C. La cellule B — (6j^ , . . . , . . . , &^^) est dite voisine de A, notée B -\ A, siVt E 
{!,... jd}, les coordonnées de B vérifient : b*^ = a*j_i ou 6*^ — a*^ ou = ^jt+i- 
Exception faite du cas oùyt £ {1, . . . , d} 6*^ = a*^, B n'est pas considérée comme une 
cellule voisine de A car B = A. 

Dans l'exemple de la figure |2] la cellule B est voisine de A {B -\ A). Y est aussi 
voisine de A {Y -\ A). En revanche, les cellules 5* et iî ne sont pas voisines de A. Ceci 
nous ramène à définir le voisinage d'une cellule. 

Définition 2 (Voisinage d'une cellule) Soit A une cellule du cubeC, nous définissons 
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le voisinage de A, noté V(^), par l'ensemble de toutes les cellules B de C qui sont voi- 
sines de A. 

V{A) = {B eC tel que B ^ A} 

Par exemple, dans la figure [2] le voisinage de la cellule A correspond à l'ensemble 
V{A) = {F,K,L,Y,T,B,H,E}. 

Définition 3 (Fonction A) Nous définissons une fonction A de C dans N tel que : 

BeV(A) 

Avec S est une fonction définie comme suit : 
ô -.C xC — > N 

1 si A et B sont pleines 
sinon 



ôiA,B) ^ 

A(y4) correspond au nombre de cellules pleines et voisines de A. 



En supposant que les cellules grises représentent les cellules pleines dans la figure [2] 
A{A) — 4 puisque F, K, B et E sont les seules cellules qui sont à la fois pleines et 
voisines de A. 

Définition 4 (Indice d'homogénéité brut) Nous définissons l'indice d'homogénéité 
brut d'un cube C, noté IHB(C), par la somme de tous les couples de ses cellules qui 
sont à la fois pleines et voisines. 

IHB{C) = Y, A{A) 
Aec 

Par exemple, l'indice d'homogénéité brut du cube de la figure [2] se calcule comme 
suit : 

IHB{C) = A{F) + A{K) + A{A) + A{S) + A{B) + A{E) = 2 + 2 + 4+1 + 2 + 1 = 12 

La meilleure représentation d'un cube de données correspond au cas oii ce dernier 
est complètement non vide. C'est à dire, toutes ses cellules sont pleines. Dans ce cas, 
l'indice d'homogénéité brut est maximal : 

IHBrnaAC) = Y ^ 

Aec Bev(A) 

Définition 5 (Indice d'homogénéité) Nous définissons, l'indice d'homogénéité d'un 
cube C, noté IH(C), par le rapport de l'indice de l'homogénéité brut sur celui de l'ho- 
mogénéité maximale. 



AeC B£V{A) 
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Dimension 


Nombre de 
modalités 


Description 


Di : catégorie 


Pi 


= 58 


profil professionnel du client 


socio- 








professionnelle 








D2 : produit 


P2 


= 25 


détention de formule(s) qui sont des offres combinées de 
produits bancaires 


D3 : unité 


p-i 


= 65 


localisations géographiques de vente 


commerciale 








D4 : segment 


Pi 


= 15 


potentiel commercial du client 


D5 : âge 


P5 


= 12 


variable discrétisée selon des tranches d'âge de dix ans 
([0-10], [11-20], [21-30], etc.) 


Dq : situation 


Pa 


= 6 


exemple : marié, divorcé, etc. 


familiale 








Dr : type 


P7 


= 4 


origine du client (par exemple, client membre du person- 


client 






nel du Crédit Lyonnais) 


Ds : marché 


PS 


= 4 


une vente réalisée auprès d'un client est faite sur le 
marché "particulier des professionnels " si le client est 
artisan ou exerce une profession libérale, etc., ou sur le 
marché "particulier" sinon 



Tab. 1 - Description des dimensions du cube exemple 



Après calcul, l'homogénéité maximale du cube exemple de la figure |2] étant égale à 
48, l'indice d'homogénéité de ce dernier est donc IH{C) = i| ~ 14, 28% 

Pour mesurer l'apport de l'arrangement des modalités sur la représentation du cube 
de données, nous calculons le gain en homogénéité noté g selon la formule : 

_ IH{Carr) — IH{Cini) 
IHiCini) 

OÙ IH{Cini) est l'indice d'homogénéité de la représentation du cube initial et IH{Carr) 
est celui de la représentation arrangée selon notre méthode. Notons que quelle que soit 
la représentation initiale du cube, l'arrangement fourni en sortie par notre méthode est 
identique puisque l'ACM n'est pas sensible à l'ordre des variables données en entrée. 

4 Etude de cas 

Pour tester et valider l'approche que nous proposons, nous utilisons un jeu de 
données bancaires extrait du système d'information du Crédit Lyonnais. A partir de 
ces données, nous avons construit un contexte d'analyse (cube de données). Un fait du 
cube correspond au comportement d'achat d'un client. Nous disposons dans ce cube de 
n = 311 959 comportements de clients mesurés par le produit net bancaire {Mi) et le 
montant des avoirs (A/2). Le tableau[î]détaille la description des dimensions considérées 
pour observer ces mesures. 
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FiG. 3 - Le cube de données avant et après arrangement des modalités 



Pour rendre plus claire la suite de notre exposé, notre étude de cas porte sur un 
cube à deux dimensions (d — 2) : la dimension "catégorie socio-professionnelle" (-Di) 
et la dimension "produit" (-D2)- La mesure observée est "le montant des avoirs". Nous 
générons les matrices Zi et Z2 selon un codage binaire disjonctif des modalités des 
deux dimensions. Le tableau disjonctif complet Z = [Zi,Z2] a n = 311 959 lignes et 
p — Pi + P2 — 83 colonnes. 

En appliquant l'ACM sur le tableau Z, on obtient p — d ~ 81 axes factoriels F^- 
Chaque axe est caractérisé par sa valeur propre Aq et les contributions apportées par 
les dimensions : Cra{Di) et Cra{D2). Nous cherchons, pour chaque dimension, l'axe 
qui est le mieux contribué par cette dernière. Nous obtenons les résultats suivants : 

- Pour la dimension Di, A45Cr45(Di) = in-S.^ae{i,....8i}i'^aCra{Di)), avec A45 = 
0.5 et Cr45(£ii) = 99.9% 

- Pour la dimension D2, XiCri{D2) ~ max^gj! gi}(AQ,CrQ,(Z?2)), avec Ai = 0.83 
et Cri{D2) = 50%. 
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Ainsi, la dimension Di est associée à l'axe F45 et D2 à l'axe Fi. Les modalités de 
Di (respectivement, D2) sont arrangées suivant l'ordre croissant de leur projections 
sur F45 (respectivement, Fi). Dans la figure|3] nous présentons le résultat de cet arran- 
gement. La représentation (a) correspond à l'arrangement initial du cube selon l'ordre 
alphabétique des libellés des modalités. La représentation (b) correspond à l'arrange- 
ment obtenu par l'ordre croissant des projections des modalités sur les axes factoriels 
suscités. Pour des raisons de confidentialité, nous masquons les libellés des modalités 
de chaque dimension ainsi que les valeurs des mesures. Nous remplaçons les libellés par 
des codes chiffrés et les mesures existantes par des cases noires. Les cases blanches du 
cube représentent les creux correspondant à des croisements vides. Sur cet exemple, le 
taux d'éparsité du cube est égal à 64%. La valeur de l'indice d'homogénéité est de 
17, 75% pour la représentation (a) et de 20, 60% pour la représentation (b). Nous obte- 
nons donc un gain en homogénéité de 16, 38% par rapport à la représentation initiale 
du cube. 

Nous avons également appliqué notre méthode sur un cube à trois dimensions : 
"catégorie socio-professionnelle" (-Di), "produit" {D2) et "âge" (-D5). Ce cube, dont 
le taux d'éparsité est égal à 87, 94%, contient plus de cellules vides comparé au cube 
précédent. L'arrangement des modalités correspond à l'ordre alphabétique pour Di et 
D2, et k l'ordre croissant des tranches d'âge pour D^. Le cube initial a un indice d'ho- 
mogénéité de 5, 12%. Le cube arrangé, selon notre méthode, a un indice d'homogénéité 
de 6, 11%. Nous obtenons ainsi un gain de 19, 33%. 
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FiG. 4 - Évolutions de l'indice d'homogénéité et du gain en fonction de l'éparsité 

Nous avons réalisé une série d'expérimentations de notre méthode sur le premier 
cube (le cube à deux dimension Di et D2), pour différentes valeurs du taux d'éparsité. 
Afin de mesurer l'impact de l'éparsité sur notre méthode, nous avons tiré plusieurs 
échantillons aléatoires à partir de la population du cube initial (les n faits du cube). 
En variant le taux d'échantillonnage, nous parvenons à faire varier l'éparsité du cube. 

^Le taux d'éparsité est égal au rapport entre le nombre de cases vides et le nombre total des cases 
du cube. 
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La figure |4] (a) montre l'évolution de l'indice d'homogénéité du cube initial et du 
cube arrangé en fonction de l'éparsité. Nous remarquons que les valeurs de l'indice 
sont décroissantes en fonction de l'éparsité du cube. Ceci est naturellement dû à la 
construction de cet indice qui dépend fortement du nombre de cellules pleines dans le 
cube. Notons aussi que, quelle que soit l'éparsité, le cube obtenu par arrangement selon 
notre méthode est toujours de meilleure qualité que le cube initial au sens de notre 
indice d'homogénéité. Dans tous les cas, nous réalisons un gain en homogénéité lors de 
l'arrangement du cube. 

D'après la figure |4] (b) , le gain en homogénéité a une tendance générale croissante 
en fonction de l'éparsité du cube. En effet, plus le cube est éparse, plus nous avons une 
meilleure marge de manœuvre pour concentrer les données et les regrouper ensemble 
autour des axes factoriels de F ACM. 

Notons aussi que le gain en homogénéité, qui est toujours positif, peut fléchir locale- 
ment (voir figure [4](b)). Ceci est inhérent à la structure des données. C'est à dire, si les 
données du cube initial sont déjà dans une représentation homogène, l'application de 
notre méthode n'apportera pas de gain considérable. En effet, dans ce cas, la méthode 
n'aura qu'un effet de translation du nuage des fait vers les zones centrales des axes 
factoriels. 



5 Travaux connexes 

L'amélioration de l'espace de représentation des données multidimcnsionnelles dans 
l'OLAP a fait l'objet de plusieurs travaux de recherche. Rappelons que, dans notre cas, 
cette amélioration se traduit par la concentration des données autour des axes factoriels 
d'une ACM. Cela a pour effet de produire une meilleure visualisation homogénéisant 
au mieux le nuage des faits et mettant en avant des points de vue intéressants pour 
l'analyse. 

Les travaux de recherche qui se sont intéressés à l'étude de l'espace de représentation 
ont été menés suite à des motivations différentes. Tandis que certains se sont penchés 
sur des aspects d'optimisation technique (stockage, temps de réponse, etc.), d'autres 
s'intéressent plutôt à l'aspect de l'analyse en ligne, et particulièrement à la visuali- 
sation. Notre travail s'articule davantage autour des seconds travaux. Tout d'abord, 
nous présentons les travaux ayant traité l'approximation des cubes de données, leur 
compression et l'optimisation des calculs d'agrégats. 

En se basant sur le principe d'approximation par ondelettes (wavelets), Vitter et 
al. fVitter et Wang, 1999' proposent un algorithme pour construire un cube de données 
compact. L'algorithme proposé fournit des résultats meilleurs que ceux de l'approxi- 
mation par histogrammes ou par échantillonnage aléatoire Vitter et al., 1998]. Dans le 



même ordre d'idées, Barbara et Sullivan [Barbara et Sullivan, 1997 ont proposé l'ap- 



proche Quasi-Cube qui, au lieu de matérialiser la totalité d'un cube, matérialise une 
partie de ce dernier en se basant sur une description incomplète mais suffisante de ses 
données. Les données non matérialisées sont ensuite approximées par une régression 
linéaire. 

Une technique de compression basée sur la modélisation statistique de la struc- 
ture des données d'un cube a été proposée dans Shanmugasundaram et al., 1999| . 
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Après estimation de la densité de probabilité des données, les auteurs construisent une 
représentation compacte des données capable de supporter des requêtes d'agrégation. 
Cette technique n'a de sens que dans le cas de cubes présentant des dimensions conti- 
nues. 

La méthode de compression Dwarf proposée dans [Sismanis et al., 2002 , réduit l'es- 



pace de stockage d'un cube de données. Cette méthode consiste à identifier les n-uplets 
redondants dans la table de faits. Les redondances de données sont ensuite remplacées 
par un seul enregistrement. Wang et al. [Wang et al., 2002] proposent de factoriser ces 
redondances par un seul n-uplet de base appelé BST [Base Single Tuple). A partir du 
BST, les auteurs construisent un cube de données de moindre taille MinCube (Minimal 
condensed BST Cube). Cette approche requiert des temps de traitement relativement 
longs. En vue de remédier à cette limite, Feng et al. [Feng et al., 200 4a ont repris l'ap- 
proche en introduisant une nouvelle structure de données Pref ixCube. Ils suggèrent de 
ne plus utiliser tous les BST dans la construction du cube mais plutôt de se contenter 
d'un seul BST par dimension. En contre partie, ils proposent l'algorithme BU-BST pour 
la construction d'un cube compressé {Bottom Up BST algorithm) . Cet algorithme est 
une version améliorée de l'algorithme BUC {Bottom Up Computation algorithm) proposé 
à l'origine dans (Beyer et Ramakrishnan, 1999| . 

Lakshmanan e< aZ. Lakashmanan et al., 2002 proposent la méthode Quotient Cube 
pour la compression d'un cube de données en résumant son contenu sémantique et en 
le structurant sous forme de partitions de classes. La meilleure partition n'est pas 
seulement celle qui permet de réduire la taille du cube mais aussi celle qui permet de 
conserver une structure de treillis valide donnant la possibilité de naviguer avec les 
opérations d'agrégation (Roll-Up) et de spécification (Drill-Down) dans le cube réduit. 
Malheureusement, la technique des Quotient Cube fournit des structures peu com- 
pactes. De plus, ces structures ne sont pas adaptées aux mises à jours des données. 
Dans [Lakshmanan et al., 2003] , Lakshmanan et al. proposent une nouvelle version 
améliorée QC-Tree (Quotient Cube Tree) qui pallie les limites de la technique des 
Quotient Cube. QC-Tree permet de rechercher les structures compactes de données 
dans un cube, d'extraire et de construire les cubes intéressants à partir des données 
mises à jour. 

Feng et al. Feng et al., 2004b] proposent la méthode Range CUBE pour la compres- 
sion des cubes en se basant sur les corrélations entre les cellules du cube. Cette approche 
consiste à créer un arrangement des cellules d'un cube selon un certain formalisme 
d'appartenance introduit dans les nœuds du treillis du cube original. Cet arrangement 
permet de produire une nouvelle structure du cube plus compacte et moins coûteuse 
en stockage et en temps de réponse. 

Ross et Srivastava [Ross et Srivastava, 1997| traitent le problème de l'optimisation 
du calcul d'agrégats dans les cubes de données éparses. Les auteurs proposent l'algo- 
rithme Partitioned-Cube qui partitionnent les relations entre les données d'un cube 
en plusieurs fragments de façon à ce qu'ils tiennent en mémoire centrale. Cette mesure 
permet de réduire le coût des entrées/sorties. Les fragments de données sont ensuite 
traités indépendamment, un par un, afin de calculer les agrégats possibles et de générer 
des sous-cubes de données. Cette notion de fragment est reprise dans les travaux de Li et 



al. Li et al., 2004 . Leur méthode, appelée Shell Fragment, partitionne un ensemble 
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de données de forte dimensionnalité en sous-ensembles disjoints de données de dimen- 
sionnalités moins importantes appelés "fragments". Pour chaque fragment est calculé 
un cube de données local. Les identifiants des n-uplets participant à la construction 
de cellules non vides dans un fragment sont enregistrés. Ces identifiants sont utilisés 
pour lier différents fragments et reconstruire de petits cubes (cuboïdes) nécessaires à 
l'évaluation d'une requête. Le cube de données de départ est assemblé via ces fragments. 

Enfin, citons les travaux de Choong et al. [Choong et ai, 2004l|Choong et al, 2003| 
qui ont une motivation similaire à la nôtre. Les auteurs utilisent les règles floues (com- 
binaison d'un algorithme de règles d'association et de la théorie des sous-ensembles 
flous) afin de faciliter la visualisation et la navigation dans l'espace de représentation 
des cubes de données. Leur approche, consiste à identifier et à construire des blocs de 
données similaires au sens de la mesure du cube. Cependant, cette approche ne prend 
pas en compte le problème d'éparsité du cube. De plus, elle se base sur le comptage 
du nombre d'occurrences des mesures où ces dernières sont considérées comme des 
nombres entiers. 

6 Conclusion et perspectives 

Dans cet article, nous avons proposé une nouvelle approche apportant une solution 
au problème de la visualisation des données dans un cube éparse. Sans réduire l'éparsité, 
nous cherchons à organiser l'espace multidimensionnel des données afin de regrouper 
géométriquement les cellules pleines dans un cube. La recherche d'un arrangement 
optimal du cube est un problème complexe et coiiteux en temps de calcul. Nous avons 
choisi d'utiliser les résultats de l'ACM comme heuristique pour réduire cette complexité. 
Notre approche consiste à arranger les modalités des dimensions d'un cube, selon les 
besoins d'analyse de l'utilisateur, en fonction des résultats fournis par l'ACM. Pour 
évaluer l'apport de cette nouvelle représentation de données, nous avons proposé un 
indice d'homogénéité basé sur le voisinage. La comparaison des valeurs de l'indice entre 
les représentations initiale et arrangée du cube nous permet d'évaluer l'efficacité de 
notre approche. Les différents tests sur notre jeu de données bancaires nous ont montré, 
que quelle que soit l'éparsité, notre approche est pertinente. Le gain en homogénéité 
est croissant en fonction de l'éparsité et son amplitude est également inhérente à la 
structure des données. 

Suite à ce travail, plusieurs perspectives sont à prévoir. Tout d'abord, nous devons 
étudier la complexité de notre méthode. Cette étude doit prendre en compte aussi bien 
les propriétés du cube (taille, éparsité, cardinalités, etc.) que l'impact de l'évolution 
des données (rafraîchissement de l'entrepôt de données). 

Ensuite, à ce stade de nos travaux, pour appliquer l'ACM, nous tenons seulement 
compte de la présence/ absence des faits du cube dans la construction des axes factoriels. 
Nous envisageons alors d'introduire les valeurs des mesures comme pondérations des 
faits (poids des individus de l'ACM). Ceci permettra de construire des axes factoriels 
qui traduisent mieux la représentation des faits du cube selon leur ordre de grandeur. 
Dans ce cas, il serait également intéressant d'introduire la notion de distance entre 
cellules voisines en fonction des valeurs des mesures qu'elles contiennent. 

Dans le même ordre d'idées de la présente méthode, nous souhaitons utiliser les 
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résultats de l'ACM afin de faire émerger des régions intéressantes à l'analyse à partir 
d'un cube de données initial. En effet, l'ACM permet de concentrer dans les zones 
centrales des axes factoriels les individus ayant un comportement normal, et d'éloigner 
ceux ayant des comportements atypiques vers les zones extrêmes. Nous pouvons déjà 
exploiter les résultats de l'arrangement des modalités du cube dans le cadre de la 
distinction de régions correspondant à ces comportements caractéristiques. 

Nous voulons aussi comparer la visualisation obtenue par notre approche avec celle 
proposée dans | Chaucliat et Risson, 1998] . Cette dernière représente les résultats d'une 
analyse factorielle sous forme d'un diagramme de Bertin |Bertin, 1981| qui est plus facile 
à interpréter. L'objectif de cette méthode est de proposer une visualisation optimisée 
d'un tableau de contingence. Cependant, elle se limite à des tableaux à deux dimensions 
sans données manquantes et ne peut pas s'appliquer à des cubes à forte dimensionnalité. 
Notre approche peut être considérée comme une extension de cette méthode concernant 
la dimensionnalité du cube et de l'éparsité de ses données. 

Par ailleurs, la matériahsation des cubes de données permet le pré-calcul et le 
stockage des agrégats multidimentionnels de manière à rendre l'analyse OLAP perfor- 
mante. Cela requiert un temps de calcul important et génère un volume de données 
élevé lorsque le cube matérialisé est à forte dimentionnalité. Au lieu de calculer la tota- 
lité du cube, il serait judicieux de calculer et de matérialiser que les parties intéressantes 
du cube (fragments contenant l'information utile). Comme l'information réside dans les 
cellules pleines, le cube arrangé obtenu par l'application de l'ACM serait un point de 
départ pour déterminer ces fragments. Ainsi, comme dans [Barbara et Sullivan, 1997] , 
chaque fragment donnera lieu à un cube local. Les liens entre ces cubes permettront 
de reconstruire le cube initial. 

Enfin, dans ce travail, nous avons délibérément omis de préciser l'origine de ces 
données. Classiquement, ces données peuvent être issues d'un entrepôt de données. Mais 
nous envisageons d'appliquer cette approche dans un contexte d'entreposage virtuel. 
Nous entendons par entreposage virtuel la construction de cube à la volée à partir de 
données fournies par un système de médiation. Un enjeu prometteur de notre méthode 
est donc de pouvoir soumettre à l'utilisateur, dans le contexte de l'entreposage vir- 
tuel, des représentations visuellement intéressantes des cubes de données. Selon cette 
démarche, l'utihsateur est de plus en plus impliqué dans le processus décisionnel. D'une 
part, il est à l'origine des données qu'il veut étudier dans la mesure où il interroge le 
médiateur. D'autre part, il définit les mesures et les dimensions pour la construction de 
son contexte d'analyse. Notre méthode se charge alors de lui fournir automatiquement 
une représentation intéressante en arrangeant les modalités des dimensions qu'il choisit 
d'observer. 
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Summary 

In décision-support Systems, the visual component is important for On Line Ana- 
lysis Processing (OLAP). In this paper, we propose a new approach that faces the 
visualization problem due to data sparsity. We use the results of a Multiple Correspon- 
dence Analysis (MCA) to reduce the négative effect of sparsity by organizing differently 
data cube cells. Our approach does not reduce sparsity, however it tries to build re- 
levant représentation spaces where facts are efficiently gathered. In order to evaluate 
our approach, we propose an homogeneity criterion based on géométrie neighborhood 
of cells. The obtained expérimental results have shown the efïiciency of our method. 
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